查看原文
其他

【新开源报道 37】Facebook 开源语音识别工具包wav2letter

2018-01-09 开源最前线
开源最前线(ID:OpenSourceTop) 猿妹 整编

来源:GitHub


近日,Facebook AI 研究院开源了端到端语音识别系统 wav2letter,本文是该架构的论文实现,读者可据此做语音转录。

ASR 系统 wav2letter


授权协议:BSD

开发语言:Lua

操作系统:跨平台

开发厂商:Facebook

项目地址:https://github.com/facebookresearch/wav2letter


Facebook AI 研究院近日开源了一款简单高效的端到端自动语音识别(ASR)系统 wav2letter,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。



wav2letter 简介


wav2letter 是 Facebook AI 研究院今天开源的简单高效的端到端自动语音识别(ASR)系统。该实现的原作者包括 Ronan Collobert、Christian Puhrsch、Gabriel Synnaeve、Neil Zeghidour 和 Vitaliy Liptchinsky。


如果你使用 wav2letter 或相关的预训练模型,需引用其中的一篇论文。 


另外,如果想要立刻进行语音转录的,Facebook 还提供了 Librispeech 数据集上预训练模型。


预训练模型:https://github.com/facebookresearch/wav2letter#pre-trained-models

Librispeech 数据集:http://www.openslr.org/12



wav2letter 训练


数据文件夹包含多个用于预处理多种数据集的脚本。目前我们仅提供 LibriSpeech 和 TIMIT。以下是预处理 LibriSpeech ASR 语料库的例子:



在多 GPU 上训练



使用 OpenMPI 进行多 GPU 训练:



这里,我们假定 mpirun 位于$PATH。



安装要求


● MacOS 或 Linux 操作系统

● Torch,我们在下文介绍了安装教程

● 在 CPU 上训练:Intel MKL

● 在 GPU 上训练:NVIDIA CUDA Toolkit (cuDNN v5.1 for CUDA 8.0)

● 读取录音文件:Libsndfile(必须在任何标准发行版中可用)

● 标准语音特征:FFTW(必须在任何标准发行版中可用)


附:新开源报道汇总

《【新开源报道 36】有效减少错误代码!Instagram 开源用于 Python 3 的 MonkeyType 工具》

《【新开源报道 35】国内第一家私有视频通信软件 Tucodec 开源》

《【新开源报道 34】AMD 开源基于 Mesa 的 Vulkan Linux 驱动》

《【新开源报道 33】安全软件公司 Avast 开源机器码反编译器 RetDec》

《【新开源报道 32】谷歌开源 TFGAN:轻量级生成对抗网络工具库》

《【新开源报道 31】国内首套开源持续集成(CI) 解决方案 flow.ci 开源啦》

《【开源推荐 30】苹果开源领域又一深造:开源机器学习框架 Turi Create》

《【新开源推荐 29】AI开发者的福音:360公司宣布开源深度学习调度平台 XLearning!》

《【新开源推荐 28】百度正式开源 Linux 发行版 MesaLock Linux》

《【新开源报道 27】百度开源高性能 Python 分布式计算框架 Bigflow》

《【新开源报道 26】滴滴开源基于 Vue.js 的移动端组件库 cube-ui》

《【新开源报道 25】Google 开源 Docker 镜像差异分析工具 container-diff》

《【新开源报道 24】美团点评开源MySQL闪回工具 —— MyFlash》

《【新开源报道 23】IBM 推出首套开源现代化字体 —— IBM Plex》

《【新开源报道 22】Microsoft 开源用于 VS Code 的 Java Debugger》

《【新开源报道 21】阿里开源容器技术Pouch和P2P文件分发系统“蜻蜓”》

《【新开源报道 20】Uber正式开源其分布式跟踪系统Jaeger》

《【新开源报道 19】Uber与斯坦福大学开源深度概率编程语言Pyro》

《【新开源报道 18】谷歌开放内部工具 Colaboratory 来协助 AI 开发》

《【新开源报道 17】这波开源满分!清华大学开源网络嵌入的工具包 —— OpenNE

《【新开源报道 16】AI开发者福音!微软亚马逊联合发布深度学习库 Gloun》

《【新开源报道 15】谷歌发布量子开源软件,量子计算机对科学家免费开放 》

《【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark》

《【新开源报道 13】Facebook 开源帮助开发者消灭最顽固的软件 bug 的工具》

《【新开源报道 12】不只是阿里巴巴的操作系统,AliOS 宣布开源》

《【新开源报道 11】重磅!阿里巴巴正式开源全球化OpenMessaging和ApsaraCache项目》

《【新开源报道 10】IBM 和谷歌等巨头联手为开发者推出开源容器安全工具Grafeas》

《【新开源报道 9】Google开源Abseil,为C++和Python开发提供支持》

《【新开源报道 8】serverless 领域的福音!Oracle 宣布开源 Fn project》

《【新开源报道 7】苹果在 GitHub 上公布 macOS 和 iOS 内核源码》

《【新开源报道 6】百度开源移动端深度学习框架mobile-deep-learning(MDL)》

《【新开源报道 5】百度正式开源其 RPC 框架 brpc》

《【新开源报道 4】IBM 开源动态的应用服务器运行时环境 Open Liberty》

《【新开源报道 3】微信后台团队最近开源力作:PhxQueue分布式队列》

《【新开源报道 2】喜大普奔!阿里即将开源 ApsaraCache,云数据库 Redis 版分支》

【新开源报道 1】腾讯 Web UI 解决方案 QMUI Web 正式回迁开源》



●本文编号136,以后想阅读这篇文章直接输入136即可

●输入m获取文章目录

↓↓↓ 点击"阅读原文" 进入GitHub详情页 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存